iT邦幫忙

2025 iThome 鐵人賽

DAY 13
0
佛心分享-IT 人自學之術

LLM入門學習系列 第 13

Day 13:大型語言模型訓練流程 — Data Pipeline 與損失函數

  • 分享至 

  • xImage
  •  

1. 大型語言模型訓練的 Data Pipeline

大型語言模型 (LLM) 的訓練是一個龐大而複雜的工程,它需要精密的數據處理管線 (Data Pipeline) 來高效地餵養模型,並依靠交叉熵損失 (Cross-Entropy Loss) 來指引模型學習的方向。Data Pipeline 是整個訓練流程的後勤系統,旨在將海量、雜亂的原始文本,轉化為模型能穩定、高效消耗的結構化數據。

階段一:數據預處理 (Data Preparation)

這一步決定了模型的品質和安全性:

  1. 資料蒐集:從網頁、書籍、程式碼庫等來源獲取兆級別的原始文本。必須仔細處理資料品質、版權與合規、以及多樣性等問題。
  2. 清理與過濾:移除重複內容、特殊字元,並過濾掉低品質、太短或太長的段落,以及任何敏感資訊
  3. Tokenization:使用 BPE / SentencePiece 等技術,將清洗後的文字轉換成模型能理解的 Token ID 序列

階段二:數據管線 (Data Ingestion)

這是最大化 GPU/TPU 效率的關鍵環節:

  1. 資料分批 (Batching):將多個 Token ID 序列組織成一個批次 (Batch)。這是為了利用硬體對大型矩陣運算的並行處理能力。
  2. 填充 (Padding):由於同一個 Batch 中的序列長度必須一致,較短的序列會用特殊符號填充。
  3. Masking (依任務不同)
    • GPT (自回歸模型):不需要額外的 Masking,模型只需從左到右預測下一個 Token。
    • BERT (自編碼器模型):需要 Mask Language Modeling (MLM),即隨機遮蔽一部分 Token。

2. 損失函數:交叉熵損失 (Cross-Entropy Loss)

LLM 的訓練目標是讓模型準確預測序列中的下一個 Token 的機率分佈。交叉熵損失 (Cross-Entropy Loss) 是量化模型預測與真實答案之間差距的標準方法。

核心概念

  1. 模型輸出:模型會輸出一個包含所有可能詞彙的機率分佈(經過 Softmax 處理)。
  2. 真實答案:只有一個,用 One-hot 向量表示(正確類別為 1,其餘為 0)。
  3. 損失函數:衡量這兩個分佈的差距。

上一篇
Day 12:Tokenization 與 Embeddings — LLM 的數據基石
下一篇
Day 14:微調方法 (Fine-tuning) Full fine-tune vs Feature extraction
系列文
LLM入門學習25
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言